Segmentation and indexation of complex objects in comic book images. (Segmentation et indexation d'objets complexes dans les images de bandes dessinées)

نویسنده

  • Christophe Rigaud
چکیده

Born in the 19th century, comics is a visual medium used to express ideas via images, often combined with text or visual information. It is considered as a sequential art, spread worldwide initially using newspapers, books and magazines. Nowadays, the development of the new technologies and the World Wide Web is giving birth to a new form of paperless comics that takes advantage of the virtual world freedom. However, traditional comics still represent an important cultural heritage in many countries. They have not yet received the same level of attention as music, cinema or literature about their adaptation to the digital format. Using information technologies with classic comics would facilitate the exploration of digital libraries, faster theirs translations, allow augmented reading, speech playback for the visually impaired etc. Heritage museums such as the CIBDI (French acronym for International City of Comic books and Images), the Kyoto International Manga Museum and the digitalcomicmuseum.com have already digitized several thousands of comic albums that some are now in the public domain. Despite the expending market place of digital comics, few researches have been carried out to take advantage of the added value provided by these new media. Document analysis is the corresponding eld of research which is relatively application-dependent. The design process of comics is so typical that their automated analysis may be seen as a niche research eld within document analysis, at the intersection of complex background, semi-structured and mixed content documents. Being at the intersection of several elds combine their di culties. In this thesis, we review, highlight and illustrate the challenges in order to give to the reader a good overview about the last research progress in this eld and the current issues. We propose three di erent approaches for comic book image analysis relying on previous work and novelties. The rst approach is called \sequential" because the image content is described in an intuitive way, from simple to complex elements using previously extracted elements to guide further processing. Simple elements such as panel text and balloon are extracted rst, followed by the balloon tail and then the comic character position in the panel from the direction pointed by the tail. The second approach addresses independent information extraction to recover the main drawback of the rst approach: error propagation. This second method is called \independent" because it is composed by several speci c extractors for each elements of the image content. Those extractors can be used in parallel, without needing previous extraction. Extra processing such as balloon type classi cation and text recognition are also covered. The third approach introduces a knowledge-driven system that combines low iii iv ABSTRACT and high level processing to build a scalable system of comics image understanding. We built an expert system composed by an inference engine and two models, one for comics domain and an other one for image processing, stored in an ontology. This expert system combines the bene ts of the two rst approaches and enables high level semantic description such as the reading order of panels and text, the relations between the speech balloons and their speakers and the comic character identi cation. Apart from that, in this thesis we have provided the rst public comics image dataset and ground truth to the community along with an overall experimental comparison of all the proposed methods and some of the state-of-the-art methods. R esum e N ee au 19 eme si ecle, les bandes dessin ees sont utilis ees pour l'expression d'id ees au travers de s equences d'images, souvent en combinaison avec du texte et des graphiques. La bande dessin ee est consid er ee comme le neuvi eme art, l'art s equentiel, di us e grâce aux progr es de l'imprimerie puis de l'Internet a travers le monde dans les journaux, les livres et les magazines. De nos jours, le d eveloppement grandissant des nouvelles technologies et du World Wide Web (la toile Internet) donne naissance a de nouvelles formes d'expressions s'acquittant du support papier pour pro ter de toute la libert e du monde virtuel. Cependant, la bande dessin ee traditionnelle continue a perdurer et repr esente un patrimoine culturel important dans de nombreux pays. A la di erence de la musique, du cin ema ou encore de la litt erature classique, elle n'a pas encore trouv ee sont homologue dans l'univers du num erique. L'utilisation des technologies de l'information et de la t el ecommunication pourrait faciliter l'exploration de biblioth eques en ligne, acc el erer leur traduction et exportation, permettre de faire de la lecture augment ee (enrichissement du contenu lors de la lecture, a la demande et personnalis e) ou encore permettre l' ecoute du texte et des bruitages pour les mal-voyants ou les apprenants. Les organismes de pr eservation du patrimoine culturel comme le CIBDI a Angoulême (Centre International de la Bande Dessin ee et de l'Image), le mus ee international du manga a Kyoto (Kyoto International Manga Museum) ou encore le site digitalcomicmuseum.com aux Etats-unis ont d ej a num eris e des centaines d'albums dont certain sont du domaine public. Malgr e la part de march e grandissante de la bande dessin ee num erique dans les pays d evelopp es, peu de recherches ont et e men ees a ce jour pour valoriser ces contenus au travers des nouvelles technologies. L'analyse de document est une th ematique de recherche qui traite ce genre de probl eme. Une de ces particularit es est sa d ependance au type de document qui requiert souvent des traitements sp eci ques. Le processus de cr eation d'une bande dessin ee est propre a cet art qui peut être consid er e comme une niche du domaine de l'analyse de document. En r ealit e, cette niche est a l'intersection de plusieurs probl ematiques de recherche qui compte les documents constitu es d'un fond complexe, semi-structur es et avec un contenu vari e. L'intersection entre plusieurs th ematiques de recherche combine leurs di cult es. Dans ce manuscrit de th ese, nous d etaillons et illustrons les di erents d e s scienti ques li es a ces travaux de recherche de mani ere a donner au lecteur tous les el ements concernant les derni eres avanc ees scienti ques en la mati ere ainsi que les verrous scienti ques actuels. Nous proposons trois approches pour l'analyse d'image de bandes dessin ees v vi R ESUM E compos e de di erents traitements dont certains am eliorent des travaux ant erieurs et d'autres etant de nouvelles pistes d'exploration. La premi ere approche est dite \s equentielle" car le contenu de l'image est d ecrit progressivement et de mani ere intuitive. Dans cette approche, l'extraction des el ements se succ ede, en commen cant par les plus simples tels que les cases, le texte et les bulles qui servent ensuite a guider l'extraction d' el ements complexes tels que la queue des bulles et les personnages au sein des cases en fonction de la direction point ee par les queues. La seconde m ethode propose des extractions ind ependantes les unes des autres de mani ere a eviter la propagation d'erreur entre les traitements. Dans cette approche, les di erents extracteurs peuvent être utilis es en parall ele puisque qu'ils n'ont pas d'inter-d ependance. D'autres el ements tel que la classi cation du type de bulle et la reconnaissance de texte y sont associ es. La troisi eme approche introduit un syst eme fond e sur une base de connaissance à priori du contenu des images de bandes dessin ees qui permet d'interagir entre des traitements de bas et haut niveaux pour construire une description s emantique de l'image. Nous proposons un syst eme expert compos e d'un syst eme d'inf erence et de deux mod eles sous forme d'ontologies, un pour mod eliser le domaine de la bande dessin ee, et l'autre pour mod eliser les traitements d'images associ es. Ce syst eme dirig e par les mod eles, combine les avantages des deux approches pr ec edentes et permet une description s emantique de haut niveau pouvant inclure des informations telles que l'ordre de lecture des cases, du texte et des bulles, des relations entre les bulles et leurs locuteurs ainsi que la distinction entre les personnages. Dans cette th ese, nous introduisons egalement la premi ere base d'images de bandes dessin ees ainsi que la v erit e terrain associ ee comportant des informations bibliographiques, spatiales et s emantiques. Cette base d'images annot ees a et e mise a disposition de la communaut e scienti que. Des exp erimentations bas ees sur les m ethodes propos ees et une comparaison avec des approches de la litt erature sont egalement d etaill ees dans ce manuscrit. Resumen Nacido en el siglo 19, los historietas se utilizan para la expresi on de ideas a trav es de secuencias de im agenes, a menudo en combinaci on con el texto y los gr a cos. El c omic esta considerado como un noveno arte, arte secuencial, salida con los avances en la impresi on y la Internet en todo el mundo en peri odicos, libros y revistas. Hoy en d a, el creciente desarrollo de las nuevas tecnolog as y la World Wide Web (el lienzo Internet) da lugar a nuevas formas de expresi on que lleva el papel a disfrutar de la libertad del mundo virtual. Sin embargo, el c omic tradicional persiste y es un patrimonio cultural importante en muchos pa ses. A diferencia de la m usica, el cine o la literatura cl asica, que a un no ha encontrado son hom ologos en el mundo digital. El uso de tecnolog as de la informaci on y de las telecomunicaciones podr a facilitar la exploraci on de bibliotecas en l nea, la traducci on y acelerar su permiso de exportaci on a la mayor lectura (enriquecimiento de los contenidos durante la reproducci on, a la carta y personalizado ) o permitir la escucha de texto y efectos de sonido para los estudiantes con discapacidad visual o allumnos. Agencias de la preservaci on del patrimonio cultural como CIBDI en Angouleme (Centro Internacional del C omic y de imagen), el Museo Internacional de Manga en Kioto (Kyoto International Manga Museum) o el sitio digitalcomicmuseum.com de los Estados Unidos han digitalizado cientos de albumes, algunos son p ublicos. Pese a la creciente cuota de mercado de los c omics digitales en los pa ses desarrollados, poca investigaci on se ha llevado a cabo hasta la fecha para desarrollar estos contenidos a trav es de las nuevas tecnolog as. El an alisis de documentos es un tema de investigaci on que se ocupa de este problema. Una de estas caracter sticas es la dependencia del tipo de documento que a menudo requiere un tratamiento espec co. El proceso de creaci on de un c omic es exclusivo de este arte que puede ser considerado como un nicho en el campo de an alisis de documentos. En realidad, este nicho est a en la intersecci on de varios documentos de investigaci on que cuenta consiste en un fondo complejo, contenido semi-estructurada y variada. La intersecci on de varias investigaciones combina sus di cultades. En esta tesis de doctorado, se describen e ilustran los diversos retos cient cos de esta investigaci on con el n de dar al lector toda la evidencia acerca de los ultimos avances cient cos en el campo, as como las barreras cient cas actuales. Proponemos tres enfoques de an alisis de imagen c omica compuesta por diferentes tratamientos que mejora algunos trabajos previos y otros que son nuevas v as de exploraci on. El primer enfoque se denomina \secuencial" porque los contenidos de la imagen se describe gradualmente y de manera intuitiva. Simples art culos como cajas y texto y las burbujas se extraen vii viii RESUMEN primero y luego siguen la cola de las burbujas y los personajes de los cuadros de acuerdo a la direcci on apuntada por las colas. El segundo m etodo ofrece extracciones independientes unos de otros a n de evitar la propagaci on del error entre aplicaciones, que es la principal desventaja del primer m etodo. En este enfoque, los diversos extractores se pueden utilizar en paralelo, ya que no tienen la interdependencia. Otros elementos como la clasi caci on del tipo de burbuja y el reconocimiento de texto est an asociados. El tercer enfoque introduce un sistema basado en un conocimiento a priori del contenido de las im agenes de dibujos animados que interact ua entre los tratamientos bajos y altos niveles para construir una descripci on sem antica de la imagen. Proponemos un sistema experto consiste en un sistema de inferencia y dos modelos de la forma de ontolog as, un modelo para el campo de los c omics y el otro para modelar el procesamiento de im agenes asociado. Este sistema experto combina las ventajas de ambos enfoques anteriores y proporciona un alto nivel de descripci on sem antica puede incluir informaci on como el orden de lectura de los cuadros, el texto y las burbujas, burbujas relaciones entre habladas y sus altavoces y el distinci on entre los caracteres. Adem as, se describen los primeros c omics p ublicas basadas en im agenes y la realidad sobre el terreno que incluye que se han propuesto a la literatura cient ca, la informaci on espacial y sem antica. Un experimento de todos los m etodos propuestos y una comparaci on de los enfoques de la literatura tambi en se detallan en este manuscrito.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Localisation contextuelle des personnages de bandes dessinées

RÉSUMÉ. Les auteurs proposent une méthode de localisation des personnages dans des cases de bandes dessinées en s’appuyant sur les caractéristiques des bulles de dialogue. L’évaluation montre un taux de localisation des personnages allant jusqu’à 65%. ABSTRACT. The authors present a new method to localize comic’s characters inside comic books’ panels relying on speech balloons properties. The e...

متن کامل

Contributions en segmentation statistique d'images et reconnaissance de formes 2D. (Contributions to statistical image segmentation and 2D pattern Recognition)

3 1 Synthèse des Travaux 5 1.1 Segmentation Statistique d’Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Détection et Reconnaissance de Formes 2D . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Plan du manuscript . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 Segmentation Statistique d’Images 13 2.1 Segmentation non supervisée d’im...

متن کامل

Extraction d'objets vidéo : une approche combinant les contours actifs et le flot optique

Résumé. Dans cet article, nous présentons une méthode mixte de segmentation d'objets visuels dans une séquence d'images d'une vidéo combinant à la fois une segmentation basée régions et l'estimation de mouvement par flot optique. L'approche développée est basé sur une minimisation d'une fonctionnelle d'énergie (E) qui fait intervenir les probabilités d'appartenance (densité) avec une gaussienne...

متن کامل

Extraction des bulles de bandes dessinées

Comics and manga are one of the most popular and familiar forms of graphic content over the world and play a major role in spreading country’s culture. Nowadays, massive digitization allow page-per-page mobile reading but we believe that other usages will be released in the near future. In this paper, we focus on speech balloon segmentation which is a key issue for text/graphic association in s...

متن کامل

Vers une indexation sémantique d'images dans un fonds iconographique territorialisé

Dans cet article, nous abordons nos travaux pour indexer et faire des recherches sur une base d’images telle que celle mise à notre disposition par la médiathèque de Pau. Le but est de proposer une méthode, des outils et techniques et un modèle sémantique pour identifier automatiquement des objets ayant pour nous un intérêt visuel, par exemple un clocher, une statue. Afin de mener à bien cette ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014